科学文献是高质量的语料库,支持大量自然语言处理(NLP)研究。但是,现有数据集围绕英语,这限制了中国科学NLP的发展。在这项工作中,我们提出了CSL,这是一个大规模的中国科学文献数据集,其中包含396K论文的标题,摘要,关键字和学术领域。据我们所知,CSL是中文中的第一个科学文档数据集。 CSL可以用作中国语料库。同样,该半结构化数据是一种自然注释,可以构成许多监督的NLP任务。基于CSL,我们提出了一个基准,以评估跨科学领域任务的模型的性能,即摘要,关键字生成和文本分类。我们分析了现有文本到文本模型在评估任务上的行为,并揭示了中国科学NLP任务的挑战,该任务为未来的研究提供了宝贵的参考。数据和代码可在https://github.com/ydli-ai/csl上找到
translated by 谷歌翻译
机器人操作系统(ROS)为涉及生产任务,提高生产力和简化人类运营的各个领域的自动化带来了极大的自动化潜力。但是,ROS高度依赖交流,但缺乏安全的数据共享机制。确保多机器人之间的机密数据交换在多机器人交互中提出了重大挑战。在本文中,我们介绍了Authros,这是一个安全且方便的授权框架,用于ROS节点,具有绝对安全性和基于私人以太坊网络和SM算法的高可用性。据我们所知,Authros是装有ROS的机器人的第一个安全数据共享框架。该框架可以满足ROS节点之间交换机密数据的不可变性和安全性的要求。此外,提出了授权和身份验证的机制,以在没有第三方的情况下进行原子执行以确保值得信赖的数据交换。 SM2密钥交换和SM4授权加密机制均已提出用于数据传输安全性。还实施了数据摘要上传方案,以提高以太坊网络上数据查询和上传的效率。实验结果表明,它可以从6.34ms的800KB加密数据中生成摘要。通过安全分析,Authros实现了安全的数据交换,数据操作检测和节点锻造攻击保护。
translated by 谷歌翻译
因果推论已成为处理分布外(OOD)概括问题的强大工具,该问题旨在提取不变特征。但是,常规方法从多个数据拆分中应用因果学习者,这可能会从数据分布中产生偏见的表示学习,并且在异质源中不变特征学习中的难度。为了解决这些问题,本文介绍了平衡的元考生学习者(BMCL),其中包括平衡的任务生成模块(BTG)和元伴侣特征学习模块(MCFL)。具体而言,BTG模块学会通过一种自我学习的分区算法来生成平衡子集,该算法对示例类和上下文的比例有限制。 MCFL模块训练一个适合不同分布的元学习者。在NICO ++数据集上进行的实验验证了BMCL有效地标识了类不变的视觉区域进行分类,并可以作为改善最先进方法的性能的一般框架。
translated by 谷歌翻译
近年来,基于深度学习的模型在视频超分辨率(VSR)方面取得了显着性能,但是这些模型中的大多数不适用于在线视频应用程序。这些方法仅考虑失真质量,而忽略了在线应用程序的关键要求,例如低延迟和模型较低的复杂性。在本文中,我们专注于在线视频传输,其中需要VSR算法来实时生成高分辨率的视频序列。为了应对此类挑战,我们提出了一种基于一种新的内核知识转移方法,称为卷积核旁路移植物(CKBG)。首先,我们设计了一个轻巧的网络结构,该结构不需要将来的帧作为输入,并节省了缓存这些帧的额外时间成本。然后,我们提出的CKBG方法通过用``核移植物)''绕过原始网络来增强这种轻巧的基础模型,这些网络是包含外部预验证图像SR模型的先验知识的额外卷积内核。在测试阶段,我们通过将其转换为简单的单路结构来进一步加速移植的多支球网络。实验结果表明,我们提出的方法可以处理高达110 fps的在线视频序列,并且模型复杂性非常低和竞争性SR性能。
translated by 谷歌翻译
我们证明了深度神经网络(NNS)的损失景观的一般嵌入原理,其解除了NNS的损失景观的层次结构,即NN的损失景观包含所有较窄NN的所有关键点。通过构建一类临界嵌入来获得该结果,该临界嵌入物将较窄的Nn的任何临界点映射到具有相同输出功能的目标Nn的临界点。通过发现广泛的一般兼容性嵌入式,我们提供了嵌入来自NNS的关键点的关键子多种尺寸的总估计。我们进一步证明了任何临界嵌入的Irfreversiblility属性,即临界点的Hessian矩阵的负/零/正小叶值的数量可能增加,但由于NN通过嵌入越来越宽,因此从未减少。使用一般兼容的临界嵌入的特殊实现,我们证明了一个严格的必要条件,以便是一个完全不变的临界点,从未成为任何关键嵌入的严格鞍端。该结果暗示宽NNS中严格鞍点的常见,这可能是在实践中广泛观察到的宽NNS易于优化的重要原因。
translated by 谷歌翻译
时间序列数据生成近年来越来越受到关注。已经提出了几种生成的对抗网络(GaN)的方法通常是假设目标时间序列数据良好格式化并完成的假设来解决问题。然而,现实世界时间序列(RTS)数据远离该乌托邦,例如,具有可变长度的长序列和信息缺失数据,用于设计强大的发电算法的棘手挑战。在本文中,我们向RTS数据提出了一种新的生成框架 - RTSGAN来解决上述挑战。 RTSGAN首先学习编码器 - 解码器模块,该模块提供时间序列实例和固定维度潜在载体之间的映射,然后学习生成模块以在同一潜在空间中生成vectors。通过组合发电机和解码器,RTSGAN能够生成尊重原始特征分布和时间动态的RTS。为了生成具有缺失值的时间序列,我们进一步用观察嵌入层和决定和生成解码器装备了RTSGAN,以更好地利用信息缺失模式。四个RTS数据集上的实验表明,该框架在用于下游分类和预测任务的合成数据实用程序方面优于前一代方法。
translated by 谷歌翻译
最近结束语音合成的最新进步使得能够产生高度自然的语音。然而,训练这些模型通常需要大量的高保真语音数据,并且对于看不见的文本,合成语音的韵律相对不自然。为了解决这些问题,我们建议将基于精细的BERT基前端与基于预先训练的FastSeech2的声学模型结合起来,以改善韵律建模。在多任务学习中,预训练的伯爵在多电话消歧任务中,联合中文词组分割任务,联合中文字分割(CWS)和演讲(POS)标记任务,以及在多任务学习中的韵律结构预测(PSP)任务框架。FastSeech 2在大规模的外部数据上预先培训,这些数据很少,但更容易获得。实验结果表明,微调BERT模型和预训练的禁止轴2可以改善韵律,特别是对于那些结构复杂的句子。
translated by 谷歌翻译
神经体系结构搜索(NAS)的主要挑战之一是有效地对体系结构的性能进行排名。绩效排名者的主流评估使用排名相关性(例如,肯德尔的tau),这对整个空间都同样关注。但是,NAS的优化目标是识别顶级体系结构,同时对搜索空间中其他体系结构的关注更少。在本文中,我们从经验和理论上都表明,标准化的累积累积增益(NDCG)对于排名者来说是一个更好的指标。随后,我们提出了一种新算法Acenas,该算法直接通过Lambdarank优化NDCG。它还利用体重共享NAS产生的弱标签来预先培训排名,以便进一步降低搜索成本。对12个NAS基准和大规模搜索空间进行的广泛实验表明,我们的方法始终超过SOTA NAS方法,精度提高了3.67%,搜索成本降低了8倍。
translated by 谷歌翻译
为了更好地了解深度神经网络的结构效益和泛化能力,我们首先提出了一种新颖的神经网络模型的理论制定,包括完全连接的残余网络(Reset)和密集连接的网络(Densenet)。其次,我们将两层网络\ CITE {EW2019PRIORITWO}和RESET \ CITE {E2019PRIORIRES}的误差分析扩展到DENSENET,并进一步显示满足某些温和条件的神经网络,可以获得类似的估计。这些估计本质上是先验的,因为它们依赖于在训练过程之前的信息上依赖于信息,特别是估计误差的界限与输入维度无关。
translated by 谷歌翻译
近年来,守则已经安全地应用于强大的自适应过滤,以消除脉冲噪声或异常值的不利影响。正文通常被定义为两个随机变量之间的高斯内核的期望。当两个随机变量之间的误差对称地分布零点时,此定义是合理的。对于不对称错误分布的情况,对称高斯内核不合适,并且无法适应错误分布。为了解决这个问题,在这篇简短的情况下,我们提出了一种新的正文变异,名称不对称的正文,它使用非对称高斯模型作为内核功能。此外,开发了一种基于非对称控制的鲁棒自适应滤波算法,分析了其稳态收敛性能。提供了模拟以确认所提出的算法的理论结果和良好性能。
translated by 谷歌翻译